我们引入了一种新的视觉相互作用工具:可解释的标签助手(Xlabel),该工具采用可解释的机器学习方法来进行数据标记。 Xlabel的主要组成部分是可解释的增强机(EBM),该预测模型可以计算每个输入特征对最终预测的贡献。作为案例研究,我们使用Xlabel来预测四种非传染性疾病(NCD)的标签:糖尿病,高血压,慢性肾脏疾病和血脂异常。我们证明EBM是通过将基于规则和其他四个机器学习模型进行比较,是预测模型的绝佳选择。通过对427个病历进行5倍的交叉验证,EBM的预测准确性,精度和F1得分在所有四个NCD中均大于0.95。它执行了两个黑盒模型,并且在这些指标中的其他模型都优于其他模型。在另一项实验中,当有意误标记记录时,EBM可能会回想起这些记录中90%以上的正确标签。
translated by 谷歌翻译
Wasserstein距离提供了概率度量之间的差异概念,该概率度量最近在学习具有不同大小(例如图像和文本文档)的结构化数据方面应用了。在这项工作中,我们研究了Wasserstein距离下的$ K $ - 最终邻居分类器($ k $ -nn)的概率度量。我们表明,$ K $ -NN分类器在$(0,1)$中支持的措施空间中并不普遍。由于任何欧几里得球都包含$(0,1)$的副本,因此不应该期望在没有对基本公制空间或Wasserstein空间本身的限制的情况下获得普遍的一致性。为此,通过$ \ sigma $ -finite度量尺寸的概念,我们表明$ k $ -nn分类器在$ \ sigma $ - 均匀离散集中支持的度量空间上普遍一致。此外,通过研究Wasserstein空间的地球结构,价格为$ P = 1 $和$ P = 2 $,我们表明$ k $ -nn分类器在有限套装的措施中普遍一致,高斯度量的空间,以及以有限小波序列表示的密度的度量空间。
translated by 谷歌翻译